Conseiller(ère) en ingénierie de la fiabilité des sites (SRE) - Spécialiste

Type :

Lieu(x) :: Montréal, Québec

Date d’affichage :

ID de l’emploi :: R152151

Nos équipes sont au coeur de tout ce que nous faisons. Ensemble, nous aidons les gens, les entreprises et la société à aller de l’avant dans les bons moments et à être résilients dans les moments difficiles.

Notre promesse aux employés, c’est ce qu’Intact vous promet en échange de votre engagement à vivre nos valeurs, à donner le meilleur de vous-mêmes, à être ouverts au changement et à vous investir dans votre carrière. Nous vous promettons de vous soutenir et de vous offrir des occasions de développement et des avantages financiers axés sur la performance dans un milieu de travail où vous pouvez façonner l’avenir, réussir en équipe et évoluer avec nous.

La rémunération chez Intact, c’est plus qu’une paie.

Aménagements de travail flexibles et formule de travail hybride
Possibilité d’acheter jusqu’à cinq jours de vacances additionnels par année
Autres avantages sociaux visant à soutenir votre bien-être mental et physique, incluant des soins de santé virtuels, un compte de dépenses mieux-être, et plus encore.
RAAE et autres possibilités d’épargne : jusqu’à 12 % du salaire, voire plus (renseignez-vous sur la possibilité d’un revenu de retraite garanti à vie)

Échelle salariale (sans s’y limiter) :

109,900 - 134,300

Boni annuel cible, basé sur le salaire de base, avec un versement potentiel pouvant aller jusqu’au double de la cible (selon la performance individuelle de l’employé et les résultats financiers de l’entreprise)

15%

Pour honorer notre promesse de réussir en équipe, nous partageons les fruits de notre succès avec nos employés par l’entremise d’un programme de bonis annuels et d’un régime d’achat d’actions des employés (RAAE), dans le cadre duquel Intact verse une cotisation correspondant à 50 % des actions nettes achetées par l’employé.

Nos régimes de retraite sont flexibles et offrent une sécurité à long terme pour nos employés après leur carrière. Nous sommes l’une des rares entreprises à toujours offrir un régime de retraite à prestations déterminées qui assure un revenu de retraite garanti à vie.

Le salaire de la personne retenue pour ce poste sera déterminé selon un ensemble de facteurs, dont : l’expérience professionnelle, les compétences, la contribution anticipée quant au poste, l’équité interne, etc. L’échelle salariale présentée ci-haut est pour une semaine de travail de 35 heures et pourrait s’appliquer à la majorité des différents profils de candidats, mais nous encourageons les candidats se situant en dehors de cette zone salariale à postuler.

À propos du poste

Nous recherchons un(e) conseiller(ère) en ingénierie de la fiabilité des sites (SRE) pragmatique au sein de l’équipe SRE & Résilience du département Intelligence opérationnelle. Ce rôle couvre Azure, AWS, GCP et les environnements sur-site, et s’inscrit dans la stratégie globale de résilience d’entreprise et de fiabilité en production.

Le(la) conseiller(ère) en ingénierie de la fiabilité des sites (SRE) évoluera au sein d’une unité d’enquêtes spéciales qui soutient et habilite le Support Applicatif, le Support Infrastructure et l’équipe de Gestion des Incidents, en coachant, guidant et dirigeant les enquêtes sur les incidents en cours ainsi que les améliorations proactives de la fiabilité. Les responsabilités clés incluent des investigations approfondies, l’observabilité avancée (OpenTelemetry, Dynatrace, Elastic), l’outillage d’auto-réparation, la gestion des indicateurs de niveau de service (SLI) et des objectifs de niveau de service (SLO) et des rapports de fiabilité alignés sur le domaine d’affaire

Ce que vous accomplirez chez nous :

Incidents et enquêtes

Mener des investigations critiques et des analyses de causes profondes (RCA) avec les équipes Application, Infrastructure et gestion des Incident.
Identifier proactivement les risques systémiques et les lacunes de résilience; déployer des solutions durables.
Réaliser des analyses post-mortem constructives et accompagner les équipes.

Observabilité (OTel, Dynatrace, Elastic)

Mettre en œuvre des traces, des métriques et des journaux (logs) de bout en bout avec une sémantique cohérente.
Développer des analyses et la détection d’anomalies; créer des modèles de santé prenant en compte la topologie du réseau.
Intégrer les tests synthétiques, les tests de contrats et le traçage distribué.

Auto-réparation et outillage de fiabilité

Développer des mécanismes de remédiation basés sur des politiques (coupe-circuit, limitation, reprises).
Définir des stratégies de déploiements progressifs (bleu-vert, Canari) avec retours arrière sécurisés. (Rollback)
Fournir des outils de résilience: validation, protection, gestion du chaos, reprise après sinistre et procédures opérationnelles

Indicateurs de niveau de service (SLI) et des objectifs de niveau de service (SLO)

Définir des Indicateurs de niveau de service (SLI) et des Objectifs de niveau de service (SLO) centrés sur l’utilisateur; appliquer les politiques de gestion des erreurs.
Publier des rapports et des tableaux de bords de fiabilité; favoriser l’amélioration continue.

Coaching et leadership

Développer les compétences des équipes de support et gestion des incidents; standardiser les procédures et les formations.
Promouvoir une culture axée sur l’automatisation, les données et la résilience

Fiabilité cloud et plateforme

Exploiter les environnements Azure, AWS et GCP sur site; GLB, DNS, TLS, CDN, basculement.
Améliorer la résilience des architectures Kubernetes/mesh (AKS/EKS/GKE, Istio/Linkerd) et des flux de données

IA au service de la fiabilité

Utiliser l’IA pour la détection causale et la gestion des anomalies afin de réduire le temps moyen de réparation (MTTR).
Développer des copilotes de fiabilité; surveiller la fiabilité et le coût des systèmes d’IA.

Ce que vous mettrez à profit :

8+ années d’expérience en ingénierie de la fiabilité des sites avec une expertise dans l’exploitation des systèmes de production à grande échelle, déployé sur plusieurs environnements infonuagiques et sur site.
Solides compétences en:
- Observabilité: instrumentation et standards OpenTelemetry; Dynatrace (Davis AI, SmartScape, analyse au niveau service, définition des référentiels) Elastic/ELK (Beats/Agent, pipelines d’ingestion, ILM, Kibana).
- Ingénierie de fiabilité: Indicateurs de niveau de service (SLI), Objectifs de niveau de service (SLO) et Accord de niveau de service (SLA) budgets d’erreurs, stratégie d’alerte, modélisation de la capacité, dégradation progressive, coupure de circuit, gestion des reprises
- Intégration et déploiement continus (CI/CD) et modèles de déploiement: bleu-vert, canari, déploiement progressif, retour arrière automatisé, protection des pipelines
- Kubernetes et maillages de services; résilience et opérabilité au niveau de la plateforme.
- Système de données et d’événements: réplication, snapshots/PITR, CDC, streaming (Kafka, RabbitMQ, Pub/Sub) avec DLQ/retraitement; gestion des risques liées aux dépendances
- Réseau et trafic: DNS, équilibreurs de charge, CDN/périphériques, TLS/mTLS; principes fondamentaux de BGP et gestion du trafic global.
Solides compétences en développement logiciel dans au moins un des langages suivants: Go, Python ou TypeScript; expérience en Infrastructure en tant que code (IaC) (Terraform), GitOps (Argo CD/Flux) et les politique en tant que code (PaC)
Expérience en ingénierie du chaos, en simulation et en exercices de reprise après sinistre : capacité à concevoir des expériences sécurisées et à intégrer les enseignements dans le renforcement de la sécurité en production
Excellentes aptitudes en communication (écrite, visuelle, orale); capacité à encadrer, à mener des investigations et à présenter à des parties-prenantes technique et affaire
Bilinguisme (français et anglais) - Nécessite d'interagir sur une base régulière avec des collègues partout au pays.
Aucune expérience de travail au Canada requise, mais nécessité d’avoir l’autorisation de travailler au Canada.

#LI-Hybrid

Ce poste jouera un rôle essentiel au sein de notre équipe. | This position will fill an essential role in our team.

Égalité d’accès à l’emploi

Le respect est une des valeurs d’Intact. Pour nous, cela veut dire voir la diversité comme une force. Nous veillons à offrir un milieu de travail accessible où tout le monde se sent valorisé, inclus et encouragé à partager son point de vue unique.

Nous encourageons les candidatures de personnes appartenant à des groupes dignes d’équité, notamment les femmes, les Autochtones, les personnes handicapées, les personnes noires et les personnes faisant partie de la communauté 2ELGBTQI+.

Dans le cadre de l’engagement d’Intact envers la réconciliation, nous reconnaissons que nous travaillons, nous nous réunissons et voyageons dans un territoire habité à l’origine par les Premières Nations, les Métis, les Inuits, appelé aujourd’hui Canada. Cette histoire s’étend sur plusieurs siècles et continue d’évoluer aujourd’hui.

Nous avons mis en place des politiques qui visent à assurer aux personnes handicapées l’égalité d’accès et de participation, entre autres grâce à des mesures d’adaptation (accommodements) en milieu de travail. Un exemplaire de ces politiques est disponible sur demande.

Si nous pouvons rendre le processus de recrutement plus accessible pour vous, n’hésitez pas à nous le dire quand nous vous ferons part d’une possibilité d’emploi. Nous travaillerons avec vous pour répondre à vos besoins.

Consultez cette page pour en savoir plus sur notre processus de recrutement et votre parcours de candidat ou de candidate.

Si vous travaillez déjà pour Intact ou belairdirect, veuillez postuler à ce poste sur notre site carrière interne.

Merci de prendre note qu'Intact n'offre ni parrainage ni soutien concernant les démarches d'immigration, y compris, mais sans s'y limiter, les permis de travail fermés liés à l'entreprise. Les candidats doivent être admissibles à travailler au Canada à compter de la date prévue de leur entrée en fonction et durant toute la période de leur emploi. De plus, ils demeurent les seuls responsables de maintenir leur admissibilité au travail.

Application manuelle